查看原文
其他

360跨模态视频开放式标签挖掘技术实践分享

程博 DataFunSummit
2024-09-10

导读 本文将分享跨模态视频开放式标签挖掘技术,包括两个重点,一个是跨模态,另一个是开放式的标签挖掘。

主要内容包括以下五大部分:

1. 技术背景

2. 相关研究方法

3. 开放式标签挖掘方案

4. 应用展望

5. 问答环节

分享嘉宾|程博 360人工智能研究院 高级算法专家 

编辑整理|晏世千

内容校对|李瑶

出品社区|DataFun


01

技术背景

  1. 1. 视频标签应用场景

开放式标签挖掘技术是随着互联网技术的发展而兴起的,用于深入理解视频内容,并进行结构化分析和管理。视频内容的理解包括多个维度,如主题、地域、热点、话题质量、美观度等。本文主要介绍视频内容标签提取技术及其应用场景,包括长短视频平台搜索推荐、广告审核、文章生成视频和文章配视频等。

  1. 2. 视频内容链路的维度&意义

视频内容链路可以拆解为三个维度,即账号主体、视频物料和消费用户,并针对不同维度的问题进行具体分析和解决。

对于账号主体,需要定位明确、专业独特、粉丝画像清晰;

对于视频物料,需要相关文本、标签精准全面、内容质量美观;

对于消费用户,需要可理解、可干预、算法可解释、效果可反馈。

视频内容是整个链路的核心,算法的精准理解是关键。

  1. 3. 视频标签定义&分类

整个视频内容理解的核心是标签,视频标签是从不同维度来描述视频内容、主体、风格、倾向等。视频标签分为精准类别标签和开放式内容标签。

精准标签具有以下特点:层级式体系、封闭集、数量有限,且是一个已知的集合。

开放式内容标签,与精准式完全不同。它是一个对视频内容的表征和概括,也是一个开放集,是非常丰富且数量巨大的,并且是未知的。

本文涉及的主要是开放式标签。视频开放式标签的难点,可以总结为以下几个方面:

  • 视频开放式内容标签是比较主观的。因为标签是描述视频的主要内容,所以不同的人、不同的喜好以及不同的算法,对视频的描述可能是不一样的。
  • 标签是视频内容的抽象概述,需要算法去理解视频内容,并给予总结,
  • 对未见过的视频需要提取标签并进行描述。
  • 视频标签规范是不断更新且具有时效性的,不同时间阶段或不同热点话题对应的视频,其标签描述也具有时效性。
02

相关研究方法

  1. 1. 精确标签分类相关方法&问题

视频精准标签分类方法包括三个步骤:建立层级式标签体系、标注多标签训练数据和训练视频分类模型。

第一种方法是 3D 卷积,是利用纯视觉单模态的特征。第二种是 RNN 和 LSTM,利用视频帧时序特征。这两种方法都是传统的视觉方案,效果比较有限。

第三种方法是 TSN 和 Two-Stream CNN,这类方法利用视觉、光流等多模态特征进行决策级融合。其问题在于不同模态特征没有得到充分的融合。

第四种方法是 NeXtVLAD,其特点是聚合多路特征并进行特征级融合,是 18 年 YouTube 比赛的最佳方案,现在仍有很多团队在使用。然而,这种方法存在特征维度较高、参数量较大的问题。

第五种方法是基于多模态 Transformer 的方案。它的特点是模型更大、更深,可以利用已有的开源模型进行改进。但需要大量的训练数据。

上图中展示的是 NeXtVLAD 和 MultiModal Transformer 两种方法的示意图。

NeXtVLAD 方法,是对不同模态信息分别提取特征,再进行特征融合,输出分类结果。

MultiModal Transformer 方法是基于 Transformer 方法进行的改进。

  1. 2. 开放式标签挖掘的相关方法&问题

开放式标签挖掘的三种常用方法为:

  • 基于文本实体的挖掘,是基于纯文本的内容理解,这种方法的实体相关效果较好,但视频语义理解效果较差,因为没有用到视觉特征。
  • 基于知识库/知识图谱的挖掘,其特点是基于结构化的数据库,需要人工进行标注,主要问题是需要依赖离线知识库的建设。
  • 视频多模态的内容理解,是当前主流的解决方案和趋势,通过联合学习视觉、文本、语音等多模态特征,既可以在特征层进行融合,也可以在高层的决策层进行融合。但是,这种方法需要大量的训练数据。
从上图中的例子可以看出,精确标签没有全面地描述视频内容,而开放式标签则更丰富,当然也会存在准确率的问题。

这里介绍两种有代表性的跨模态图文表示方法:ViLT 和 CLIP。

VideoLanguage Transformer 是一个单塔结构,该结构首先将文本和视频信息 token 化,再使用 Transformer 进行统一建模。单塔结构是在统一空间对其融合不同模态的特征,这种架构的计算量较大。代表性的工作包括 VisualBert、VideoBert、ViLT 等多模态融合模型。

CLIP 是一个双塔结构,关注图文整体的相关性,计算量较小,表示能力有差异。它将文本和视频信息分别在独立的图像和文本空间中提取特征,然后通过对比学习进行融合。代表性的工作包括 CLIP、WenLan 和 R2D2 等多模态融合模型。

这些方法都是基于跨模态模型进行改进的方法,并没有一个通用万能的方法,需要结合业务特点,选择合适的方法进行改进。

03

开放式标签挖掘方案

前文中介绍了视频标签化的背景和相关方法,接下来介绍 360 的开放式标签挖掘方案。

1. 视频开放标签体系

该方案的整体架构分为四个部分:底层数据源、标签挖掘、标签相关性和排序输出。

数据源主要包括业务视频源、视频搜索词条和开源数据集。这些来源为后续的标签挖掘提供了基础。

标签挖掘部分包括以下三个关键步骤:

  • 关键词抽取:使用 TF-IDF、Text-Rank 和模板匹配等传统方法从视频中提取关键词。
  • 分类方法:进行多标签分类、物体识别和场景识别等。
  • 生成方法:包括生成内容描述、构建标签图谱以及标签改写等。
标签相关性是通过两个模型进行标签关联性分析,分别是标签判别模型和主体相关性模型。

排序输出是通过人工审核、离线标签库建设和标签排序等方式对挖掘出的标签进行处理和输出。

上图中的下半部分展示了整个数据的流程:输入一个视频,从中提取文本和视频帧信息。接下来进行数据清洗和特征提取,为后续的标签挖掘提供更准确的数据基础。之后是关键词的挖掘和标签融合输出,应用标签判别模型对相关性模型进行分析。最后,根据一定的排序规则对所有标签进行排序输出。

接下来将对架构中的重点模块进行详细介绍。

  1. 2. 标签挖掘和融合

上图中列出了一些传统的标签挖掘方法,其中最常用的是 TF-IDF 和 Text-Rank 方法,这两种方法严重依赖于分词结果,算法本质上是依赖于词频的。

BERTopic 是一种主题建模方法,其特点是简单易用、场景丰富。

模板匹配方法,使用固定模板,人工参与总结。

相似词挖掘,主要是同义词、共现组合词的挖掘,其特点是可以扩充候选词的来源。

标签图谱,基于自建或者开源的标签知识库,准确率较高。

融合优化模块主要包括标签改写和加权融合两个部分。原理是基于先验规则进行调整优化,融合多路输出结果,其特点是对相似度、规则等经验的总结,并且可动态调整不同融合方式的权重。

  1. 3. 标签判别模型

标签判别模型的目标是提取高价值的候选标签。训练过程相对简单,主要是基于纯文本进行训练,从文本信息中快速提取候选标签。关注点在于训练数据和对比不同输入方案的模型优化,特点是无需大量标注数据,使用少量数据微调即可达到比较好的效果。

对模型的评估,是通过随机抽取数十万视频,利用竞品的 API 获取开放式标签,然后使用标签判别模型进行分析。分析结果显示可用标签占比 77%,不可用标签占比 23%。对可用标签和不可用标签进行人工评估,得到可用标签的精准率为 98%,不可用标签的精准率为 82%。总体而言,标签判别模型在成本和效率上表现出色,效果显著。

在未覆盖资源上的效果分析显示,对于未覆盖的视频资源,标签判别模型每个视频可以增加大约 3 个正向标签。通过一些反馈,可以优化整个上游的上报。同时,也为离线标签库的建设提供了帮助,离线标签库视频数据集上,有 10 万多的高频热点标签。

  1. 4. 视频内容相关性模型

视频内容相关性模型是视频开放式标签方案中的一个重要模块。该模块的目的是筛选出与视频内容相关的开放式标签。为了解决这个问题,首先尝试能否通过已有的开源典型方案低成本地解决问题。如果不能解决,则分析主要问题所在,调整方案并不断迭代以最终解决问题。

对比了中文图文跨模态模型 R2D2 和 Chinese-CLIP,发现它们的区分性不够明显,因此 Zero-shot 的方案不适合。因此,考虑通过 few-shot 等方案进行视频文本多模态相关性模型的训练。

Few-Shot + Prompt 的方案基于图文相关性模型进行改进,期望以最小的成本和最少的数据打造方案效果。选择了基于中文图文跨模态模型 R2D2 的预训练框架进行调整,基于标签挖掘和判别模型的结果提供少量标注数据进行标注。视频部分采用 CLIP 模型进行特征提取,文本部分通过文本编码器进行提取,最后进行对比学习,采用了典型的双塔结构。

这里介绍一项研究院已经开源的工作,图文跨模态预训练框架以及中文图文跨模态数据集 Zero。Zero 包括 2300 万图文的数据,整个模型和数据集都具有很大价值。

Zero 数据集来自于图像搜索引擎,根据用户的点击统计数据筛选出高质量的图文对,比互联网上爬取的数据集质量更高。

整体框架如上图中所示,下半部分采用类似 CLIP 的双塔结构,上半部分为了图文信息更好地交互,把图像和文本信息进行了一个 cross-attention。训练采用四个 loss,包括对比学习 loss、细粒度匹配 loss(包括图文和图两个方向)以及掩码的 MLM。

VideoR2D2 是基于预训练的图文多模态模型进行结构微调,用少量标注数据进行学习。从算法框架图中可以看出与刚才的图文模型有一些不同。

首先,图像编码部分,是从视频中等间距选择 n 帧进行图片序列特征的抽取。文本部分选择了标题和候选标签,采用 Meta-Net 从真实特征中引入一个 π,并将其添加到可学习的 prompt 上。联合整个文本数据进行特征的 encode,输入到模型中。

模型采用的是一个简单的二分类模型,判别后链标签是否与视频内容相关。

整体模型大小约 5.5 亿参数,其中视频编码部分大约 3 亿,文本编码约 1 亿,图文联合编码的上层参数大约 1.5 亿。

模型训练经历了大量工作和实验,需要结合具体业务数据进行调整。参数微调主要集中在 Text Encoder、特征融合和 prompt 部分。整体达到了预期效果。

接下来介绍标签关系的一个扩展,也是提升标签召回的一个重要手段。

上图中展示了视频精确标签分类的架构图,使用了基于先验的标签数据,采用 GCN 网络提取标签共现关系特征。期望通过这一特征提高整个标签召回的效果。借鉴了视频标签相关性模型的思路,提取视频文本抽取的候选标签,将其作为中心节点,选择近邻的 top n 标签作为二次候选标签,再进一步使用视频文本相关性模型进行筛选。方案核心在于根据标签的先验关系学习整个标签的共现特征。

  1. 5. 标签效果分析

上图中展示了视频标签的效果,整体符合业务目标。

通过效果分析,总结出以下一些经验:

  • 首先,视频文本描述要在 150 字符以内,太短无法展示视频的重要信息,太长则存在冗余,遮挡主要内容。
  • 其次,标签维度包括主题标签、行业标签、话题标签、长尾标签、区域标签等,当然维度可以根据业务而定。
  • 第三,标签数量通常在 5-8 个为宜,具体的,包括 2-3 个主题分类标签(精准标签)、3-5 个开放式相关标签,以及 2 个长尾标签。
04

应用展望

最后是对跨模态标签挖掘技术应用的展望。

首先是通过无监督的方式提升视频标签覆盖率。可以用于业务数据分析、热点话题内容提取、用户兴趣点分析以及人群分析等。也可用于账号内容和用户相关性、粉丝群体等定性分析。

无监督方案的流程如上图所示,首先是特征提取,然后经过多模态模型提取多模态融合特征,再进行特征降维(使用 PCA、TSNE 等方法),再经过聚类、关键词抽取、融合/挖掘以及相关性模型的过滤筛选和词云分析,最后输出我们感兴趣的视频标签。

视频开放式标签还有着其它一些应用场景:

语义向量召回,包括文本召回视频、视频召回视频、视频召回标签等等;

审核准入阶段,视频文本内容相关性校验、主题内容准入;

冷启动阶段,给无文本描述视频打上相关标签;

离线标签库建设,根据不同业务场景积累全面丰富的标签体系。

最后介绍一下 360 人工智能研究院视觉团队的研究方向。近期工作包括图文、跨模态视频理解以及多模态大语言模型(VLM)、OVD 和 AIGC 等。

05

问答环节

Q1:Few-shot 是怎么做的?可以介绍一下吗?

A1:在跨模态图文理解中,Few-shot learning 的目标是通过使用少量标记样本对模型进行微调,从而提高模型在特定任务上的性能。

以下是描述 Few-shot learning 在跨模态图文理解中的应用的一些步骤和思路:

动机:

使用开源的中文图文跨模态模型进行 Zero-shot learning 时,发现图文和视频文本之间没有足够的区分性。

引入 Few-shot learning 的目的是通过少量数据微调模型,提高模型的性能。

Few-shot Learning 思路:

使用基于图文跨模态的预训练模型,通过少量数据进行微调,降低方案的成本。

采用双塔结构:视频部分进行抽帧和特征编码,文本部分提取特征,然后进行对比学习。

改进的 Few-shot Learning 模型:

基于历史工作中的 r2d2 中文跨模态图文模型进行改进。

改进包括在图中文本视频部分之间引入间隔抽取 n 帧,使用可学习的 prompt 作为文本部分的输入,同时使用候选标签和视频标题进行对比学习。

模型整体结构在图文的基础上进行了一些变化。

Few-shot Learning 的主要目标是在使用少量标记样本的情况下,提高模型在特定任务上的性能。在图文跨模态的应用中,通过微调预训练模型,使其更好地适应具体的任务需求。

Q2:如何构建标准数据集以及自动化进行评价?

A2:构建开放式标签的标准数据集并进行自动化评价是一个复杂的任务,涉及到文本挖掘、视频分类、人工标注和灵活的评估方法。以下是一些关键步骤和思考:

构建标准数据集:

文本挖掘阶段:利用文本挖掘方法从视频中提取一阶段的候选标签。这可能包括使用 TF-IDF、文本 Rank 等传统方法,或者基于预训练的模型如 BERT 进行标签提取。

视频分类阶段:利用视频判别模型对候选标签进行分类,将其分为可用和不可用的标签。这个阶段可以采用监督学习,使用已标注的数据进行模型训练。

人工标注:将分类为可用标签的视频送给人工标注员进行标注,进一步丰富训练和评估数据。

自动化评价:

评估指标的选择:评价方式应根据业务目标和任务的性质进行选择。可能的指标包括精确度、召回率、F1 分数等。此外,也可以考虑业务特定的评价指标,如标签的多样性、相关性等。

交叉验证:使用交叉验证等技术来确保评估结果的可靠性,防止过拟合。

领域特定的评估:根据任务的特性,可能需要制定一些领域特定的评估标准,以确保模型在实际应用中的有效性。

灵活性与业务目标:

不同业务目标:不同业务可能有不同的评价目标,比如某些业务更注重召回率,而其他业务可能更注重精确度。

动态调整评估:随着业务需求的变化,评估方法可能需要灵活调整,以保持对模型性能的准确度。


分享嘉宾

INTRODUCTION


尤天

上海炎凰数据科技有限公司

平台应用研发经理

毕业于上海交通大学,拥有十五年系统研发经验,近十年一直专注于大数据平台相关的研发领域。目前负责炎凰数据平台的应用研发工作。


直播推荐

往期推荐


当因果推断遇上了医学研究

第三代指标平台:真正实现“管、研、用”一体化

企业如何构建指标平台并实现智能分析?

业务理解和逻辑推理是金融大模型运转的动力

度小满金融大模型技术创新与应用探索

OPPO基于图神经网络的搜索推荐算法与实践

百度商业多模态理解及 AIGC 创新实践

阿里巴巴长文档推荐系统在企业数字化中的应用

京东零售数据可视化平台产品实践与思考

模型与算法在石油产业链的优化应用实践

多态大模型平台的应用研发与思考

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存